面向市场情报分析的Web实体事件融合问题研究

面向市场情报分析的Web实体事件融合问题研究

作者:师大云端图书馆 时间:2015-08-09 分类:期刊论文 喜欢:3009
师大云端图书馆

【摘要】随着Internet的快速发展,Web已经成为一个开放的、分布广泛的全球信息服务中心。企业希望通过大数据的分析,获取有价值的市场情报,在激烈的市场竞争中取得先机。在Web上,企业更加关心描述与其存在利益关系的实体(包括企业、产品、人物等)的一些事件信息、,这些事件描述了实体从事的一些活动或者其最新的状态,为企业挖掘市场情报提供了第一手的资料。大量的事件信息以新闻、评论、消息等形式充斥在Web上,具有冗余度高、准确度差、数据离散等特点,给企业进行市场情报分析带来极大的不便。因此,如何消除冗余、事件关系发现,从而有效地整合事件信息,成为准确获取市场情报的前提。作为企业进行市场情报分析的重要步骤,Web实体事件融合可以为市场情报分析提供高质量的数据,为市场情报分析提供全面、真实、可靠的数据支持,因此,吸引了越来越多的研究者的关注。但是,由于Web上事件信息多以新闻等非结构化形式出现,存在表达自由、形式多样、发布随意等特点,因此Web实体事件融合还存在以下问题亟待解决:(1)Web上不同网站对同一事件的描述存在较大的差异,事件融合首先需要识别描述同一事件的不同表象;(2)由于事件不断发展、不同网站对事件描述详细程度的不同、网站的偏好以及编辑出错等原因,使得Web上事件信息存在不完整、过时、错误、虚假等冲突情况的发生,因此,为了保证市场情报分析数据的准确性,Web实体事件融合需要进行事件冲突解决;(3)从单个事件的描述信息很难发现事件的全貌,无法知道其来龙去脉,因此,为了给市场情报分析提供实体事件全面描述信息,Web实体事件融合需要建立起不同实体事件之间的关联关系,为挖掘事件间的隐式关联奠定基础。Web实体事件融合是数据质量的保证,以及市场情报分析的前提,本文针对事件融合面临的若干关键问题而展开研究,本文的主要工作与贡献可以概括为如下几个方面:(1)针对如何识别Web上存在的众多不同事件表象问题,本文提出了一种基于异质信息网络的Web实体共指事件识别方法,有效地提高了识别事件不同表象的准确性。该方法使用一种层次聚类的整体式共指事件识别算法,并利用了匹配决策之间的相互影响,进而迭代实现共指事件的识别。在事件相似度度量方面,本文提出的方法综合利用了实体、事件、文档、数据源之间的关系,通过运用多种特征进行事件相似度度量,得到准确度较高的事件表象综合相似度。通过在企业事件数据集、人物事件数据集、产品事件数据上的实验说明,所提出的算法可以有效地完成Web实体共指事件识别任务,具有较好的查全率和查准率。(2)针对不同事件表象所提供的事件信息存在不完整、过时、矛盾、错误等问题,文本提出了一种基于D-S证据理论的事件冲突解决方法,可以有效地解决事件表象间存在的冲突问题。该方法根据事件冲突的类型,采用有针对性的冲突解决策略,利用D-S证据理论的组合规则,有效地提高了事件冲突解决的准确率。在事件属性可信度的计算方面,利用事件属性事实出现的频率、在文档中的位置、数据源的质量等因素,采用半监督学习的方法,分别计算事件属性事实的可信度。针对传统D-S证据理论存在的合成法则悖论问题,对D-S证据理论进行了扩展,提高了事件冲突解决的准确度,并且允许新的策略和特征的加入,因此该方法具有较强的适应性。(3)针对无法从单个事件描述洞悉事件的起因、发展以及走向等问题,本文提出了基于事件关系和实体关系构建实体事件关联图的方法,可以有效地建立起实体事件间的关联。该方法利用事件间最基本的五种关系模式还原事件发生与发展的脉络,并借助于实体关系的发现,将实体事件间的复杂关联以图的形式描述出来,为挖掘事件间存在的隐式关系奠定基础。在事件关系方面,根据已有的事件关系模式,提出了一种事件关联图的构建方法;通过实验验证,本文所提方法能够有效建立实体事件间关联,具有较高的准确率。通过对Web实体事件融合的研究,解决了市场情报分析面临的数据质量问题,并为大规模情报分析奠定了基础,因此,本文的研究具有积极的意义。另外,事件关系检测、事件模式发现以及新的事件关系的表示机制是下一步的研究方向。
【作者】孙涛;
【导师】王新军;
【作者基本信息】山东大学,计算机软件与理论,2014,博士
【关键词】市场情报分析;事件融合;共指事件识别;数据冲突解决;事件关联;

【参考文献】
[1]游文广.格力电器营销渠道冲突管理研究[D].苏州大学,工商管理(专业学位),2014,硕士.
[2]刘米娜.基于科学发展观的石油企业文化优化研究[D].东北石油大学,思想政治教育,2013,硕士.
[3]董春旭.纳米氢氧化镁的抗菌性研究[D].大连理工大学,2011.
[4]杨洪仁,王学雷,王景荣.工业过程测量信号的净化与处理[J].冶金自动化,2010,01:50-53.
[5]柴文佳.基于灰色模型的华北六省(市)区农业水资源需求量预测研究[D].河北经贸大学,行政管理,2012,硕士.
[6]邓仕才.公司股票期权法律制度研究[D].西南政法大学,民商法(专业学位),2012,硕士.
[7]刘庆元.语篇翻译中的语境分析[D].湖南师范大学,英语语言文学,2003,硕士.
[8]孙才勤.船舶电力系统建模仿真及动态稳定性研究[D].大连海事大学,2010.
[9]李苏齐.企业多元化程度与内部资本市场效率的关系研究[D].新疆财经大学,企业管理,2013,硕士.
[10]林云良.黄杨属两种药用植物的化学成份研究[D].福建师范大学,植物学,2004,硕士.
[11]王合武.安徽省省直单位公务用车管理问题研究[D].安徽大学,公共管理,2012,硕士.
[12]龚兰芳.基于ISP技术的高速数据采集模块的研制[D].武汉理工大学,交通信息工程及控制,2004,硕士.
[13]李玉杰.新农村建设中的农村妇女经济行为研究[D].东北林业大学,林业经济管理,2013,博士.
[14]汪鹤宇.初中英语阅读教学现状的调查[D].延安大学,学教科学,2014,硕士.
[15]许慎.《易传》德育思想的当代意蕴[D].山东大学,思想政治教育,2013,硕士.
[16]马嘉华.石墨烯基钙钛矿型纳米晶薄膜的制备及光催化性能研究[D].燕山大学,2014.
[17]张桂川.我国死亡赔偿金计算标准的思考[D].西南政法大学,法律(专业学位),2012,硕士.
[18]李健.激光熔覆层几何特征与熔池表面张力初步研究[D].燕山大学,机械工程,2014,硕士.
[19]WenLihua.Conceptual Metaphors on Life Theme in Shakespeare’s Sonnets and Translations[D].西安外国语大学,英语语言文学,2013,硕士.
[20]胡俊飞.基于列存储的数据库物理层优化研究[D].华中科技大学,计算机软件与理论,2013,硕士.
[21]沈蕾.上海家庭服装消费决策行为的系统整合模型及其市场应用[D].东华大学,2002.
[22]徐吉波.生态文明目标下舟山市城市环境管理职能研究[D].宁波大学,公共管理,2013,硕士.
[23]乐小陶,刘丽华,齐俊宁,陶正喜,李德珍,杨爱国.川东高陡复杂构造地震资料成像技术[J].石油地球物理勘探,2000,01:104-112.
[24]窦园园.背景噪声下孤立词识别算法的研究[D].杭州电子科技大学,电子与通信工程,2011,硕士.
[25]来庆学.Fe/N/C催化剂的原位制备及其电催化氧还原性能研究[D].南京航空航天大学,2014.
[26]盛鑫军.玻璃覆晶的封装互连性能检测方法及倒装设备研究[D].上海交通大学,2014.
[27]唐世超.中小企业品牌培育路径及初创、成长期培育战略研究[D].吉林大学,企业管理,2014,硕士.
[28]程鹏.分期腹腔镜单侧肾上腺肿瘤切除方案在双侧肾上腺肿瘤的应用价值[D].山东大学,外科学(专业学位),2013,硕士.
[29]康烨.前后压差对调节阀不平衡力的影响[D].宁夏大学,机械工程,2014,硕士.
[30]潘晓明.高新技术企业税收筹划风险研究[D].广东财经大学,工商管理(专业学位),2014,硕士.
[31]陆晶,赛英.基于综合度量的关联规则挖掘算法[J].计算机工程,2004,22:89-90+131.
[32]孟镇镇.地佐辛预防舒芬太尼诱发患者全麻诱导期呛咳反应的可行性研究[D].青岛大学,麻醉学,2013,硕士.
[33]李梦龙.运动依赖对大学生心理健康的影响及其干预研究[D].中南大学,心理学,2014,博士.
[34]路德才.由三套科技档案引起的思考[J].档案工作.1989(07)
[35]陈新明.中国能源消费与经济增长之间的关系[D].首都经济贸易大学,西方经济学,2014,硕士.
[36]刘雯波.农村土地整治生态风险管理研究[D].南京农业大学,土地资源管理,2013,硕士.
[37]罗金增.内容分析法在图书馆学中的应用研究[D].华东师范大学,情报学,2001,硕士.
[38]周建刚,赵向荣,王炳生,孙红军,陈尚达,赵云龙.杭钢2~#高炉喷煤计算机控制系统[J].冶金自动化,1996,01:41-43.
[39]龚潇潇.考虑投资者套现行为的住房抵押贷款期权定价模型[D].宁波大学,数量经济学,2013,硕士.
[40]张岩.东北地方政府对万宝山事件的应对研究[D].辽宁大学,中国近现代史,2012,硕士.
[41]赵丽芳.当代内蒙古油画研究[D].内蒙古大学,美术学,2013,硕士.
[42]董朝阳,赵俊华,文福拴,薛禹胜.从智能电网到能源互联网:基本概念与研究框架[J].电力系统自动化,2014,15:1-11.
[43]宋瑞玉,邵可振.金属加热的数学模型与控制[J].自动化学报,1981,04:304-311.
[44]戴鲁江.远程医疗诊断系统设计与实现[D].南昌大学,计算机技术(专业学位),2012,硕士.
[45]陈宗基,高金源,张建贵.Z变换和Δ变换的有限字长特性研究[J].自动化学报,1992,06:662-670.
[46]乔俊飞,袁喜春,韩红桂.基于EKF的自组织T-S模糊Elman网络[J].控制与决策,2014,05:853-859.
[47]马长青.我国民事速裁程序构建探究[D].海南大学,诉讼法学,2012,硕士.
[48]黄佳然.清代蒙古族诗人梦麟诗歌研究[D].内蒙古大学,古代文学,2013,硕士.
[49]唐桂青.基于压磁效应的应力非接触检测及其试验研究[D].湖南科技大学,机械工程,2013,硕士.
[50]余行强.阐释学视角下的译者主体性研究[D].湖北工业大学,外国语言学及应用语言学,2014,硕士.

相关推荐
更多